Constitutional AI論文
論文情報
タイトル:Constitutional AI: Harmlessness from AI Feedback
発行日:2022年12月
著者:Yuntao Bai, Saurav Kadavath et al
所属:Anthropic
論文のポイント
https://scrapbox.io/files/65fa3fca3b10030023743102.png
教師あり学習(SL)段階(上部のステップ)と、強化学習(RL)段階(下部の一連のステップ)の両方で構成されてる。
批評とAIフィードバックの両方が、「憲法」から引き出された少数の原則によって導かれる。
教師あり学習段階では初期モデルが大幅に改善され、RL段階の開始時に初期動作をある程度制御でき、潜在的な探索問題に対処できる。RL段階ではパフォーマンスと信頼性が大幅に向上する。
CoTが、有用性、正直さ、無害性などの評価タスクの性能を向上させる
CoTによって、52B以上のLLMは、人間のフィードバックと遜色ないくらいの成績に。
https://scrapbox.io/files/65fffb7473a3690024c68986.png
モデルが生成した批評と改訂を繰り返し適用することで、有害性を段階的に減らすことができる
https://scrapbox.io/files/65fffbba3c0bbc002454ccb6.png
概要
AIシステムがより高度になるにつれて、他のAIを監督するために彼らの助けを求めたいと思います。私たちは、有害な出力を特定する人間のラベルなしで、自己改善によって無害なAIアシスタントを訓練する方法を実験しています。唯一の人間の監督は、一連のルールや原則によって提供されるため、この方法を「憲法的AI」と呼んでいます。このプロセスには、教師あり学習と強化学習の両方のフェーズが含まれます。教師あり学習のフェーズでは、初期モデルからサンプリングし、自己批評と修正を生成し、元のモデルを修正された応答でファインチューニングします。強化学習のフェーズでは、ファインチューニングされたモデルからサンプリングし、2つのサンプルのうちどちらが優れているかを評価するモデルを使用し、このAI選好のデータセットから選好モデルを訓練します。そして、選好モデルを報酬信号として強化学習を行います。つまり、「AIフィードバックからの強化学習 (RLAIF)」を使用します。その結果、有害なクエリに反対意見を説明することで対処する、無害だが回避的ではないAIアシスタントを訓練することができました。教師あり学習と強化学習の両方の手法は、連鎖思考スタイルの推論を活用して、人間が判断するパフォーマンスとAIの意思決定の透明性を向上させることができます。これらの手法により、AIの動作をより正確に制御し、はるかに少ない人間のラベルで制御できるようになります。 はじめに
AIの能力の一部が人間レベルの性能に達したり、それを上回ったりしても、AIシステムが役立ち、正直で、無害であり続けるようにしたいと考えています。これは、人間がAIの行動のすべての側面を監督することに頼らない手法を開発する必要があり、有害な行動に対する堅牢性を自動的にテストおよび強化するために使用できる手法を開発する必要があることを示唆しています。また、望ましいAIの行動をシンプルで透過的な形式でエンコードし、AIの意思決定を理解および評価しやすくする手法の開発を目指しています。
https://scrapbox.io/files/65fa3fca3b10030023743102.png
本論文では、上図に示す憲法的AI(CAI)と呼ばれる手法を開発し、それを使用して、有害性に関する人間のフィードバックラベルを一切使用せずに、回避的ではなく比較的無害なAIアシスタントを訓練します。したがって、この手法は、以前に収集された人間のフィードバックラベルを使用して訓練されたものよりも、クラウドワーカーによって好まれる新しいアシスタント「RL-CAI」を改善します。我々は「憲法的」という用語を選択しました。なぜなら、短いリストの原則や指示、つまり憲法の指定のみを通じて、より有害でないシステムを訓練できるからです。しかし、我々はこの用語を用いることで、一般的なAIシステムを開発・導入する際には、それらが隠れたままであったり暗黙的であったりしても、何らかの原則の集合を選択せざるを得ないことを強調しようとしているのです。
この手法を開発した動機は次のとおりです。
(1) AIシステムが他のAIの監督を支援するためのシンプルな可能性を研究し、監督を拡張すること
(2) 回避的な応答を排除し、有用性と無害性の間の緊張を軽減し、AIが有害な要求に反対することを奨励することにより、無害なAIアシスタントを訓練するための私たちの以前の取り組みを改善すること
(3) AIの行動を支配する原則とその実装をより透明にすること
(4) 目的を変更するときに新しい人間のフィードバックラベルを収集する必要性をなくすことにより、反復時間を短縮すること。
これらの動機についてもう少し詳しく議論しましょう。
1.1 動機
監督の拡張
私たちは、AIがAIを効率的に監督するのを支援し、人間がより少ない量のより質の高い人間の監督で望ましい方法(例えば、有益で正直で無害なように)でシステムを訓練できるようにする手法に「監督の拡張」という用語を使用しています。これが有用である理由はいくつかあります:
AIの監督は、人間のフィードバックを収集するよりも効率的である可能性があります。読みやすく、焦点を絞った、質の高い監督を少量提供することにより、より集中できます。また、人間とAIシステムが協力して、いずれか一方が単独で提供できるよりも優れた監督を提供する方法もあるかもしれません。
AIシステムは既にいくつかのタスクで人間レベル以上のパフォーマンスを発揮しています。そして時間の経過とともに、より多くの例が出現する可能性があります。監督者の能力レベルがアクターの能力に比例して拡張でき、監督者が意図した目標と制約に沿ったままである場合、監督の拡張はその1つの可能性かもしれないので、これらの強力なAIシステムに対する監督を提供できる手法を今すぐ開発する必要があります。
とはいえ、監督の拡張には、意思決定をさらに自動化し(かなりの確率でぼかし)、欠点や危険性もあるかもしれません。以下で議論するように、我々の憲法的アプローチは、CoT (Chain-of-Thought)を活用して、意思決定をより読みやすくします。 ある意味では、人間のフィードバックからの強化学習(RLHF)の研究は、RLの報酬信号が直接の人間の監督ではなくAI選好モデル(PM)から来ているため、すでに拡張監督の方向に一歩踏み出しています。しかし、RLHFは通常、数万の人間の選好ラベルを使用します。 ここでは、人間の入力を極端に減らすことでその実現可能性を調べるための手法をテストします。私たちは、自然言語で述べられた10個ほどのシンプルな原則を使用するだけで、無害なAIモデルを微調整します。
ここでは、ほとんど人間の監督を排除していますが、長期的には人間の監督を排除するのではなく、できるだけ効果的にすることが目標です。
無害だが回避的ではない (まだ役立つ) アシスタント
「わかりません」とすべての質問に答えるAIアシスタントは無害ですが、もちろん完全に役に立たないでしょう。
人間のフィードバックを使用して有益で無害なアシスタントを訓練する私たちの以前の研究では、有益性と無害性の間に重大な緊張関係があり、特にアシスタントがしばしば論争の的となる質問に答えることを拒否することがわかりました。さらに、好ましくないクエリに遭遇すると、会話の残りの部分で回避的な応答を生成し続ける可能性があります。最終的に、これは、有害な入力に対する回避が私たちのクラウドワーカーによって報酬されたという事実によるものでした。
この研究の目的の1つは、有益性と無害性の緊張関係を軽減するために、決して回避的ではない有益で無害なアシスタントを訓練することです。したがって、アシスタントは引き続き非倫理的な要求でユーザーを支援することを控え、攻撃的な言語や感情を表現することを控える必要がありますが、そのような要求を拒否する理由を常に説明し、関与する必要があります。これにより、将来の研究で自動化されたレッドチーミングのスケールアップが容易になるはずです。集中的に無害性を訓練すると、単に有益であることを拒否するモデルになってしまうからです。
シンプルさと透明性
広く使用されている人間のフィードバックからの強化学習(RLHF)手法は、より有益で正直で無害なAIシステムを訓練するために、(少なくとも)数万の人間のフィードバックラベルを通常使用します。これらのラベルはしばしば非公開のままですが、公に共有されている場合でも、誰もそれほど多くの情報の集合的な影響を理解または要約することは現実的ではないため、AI訓練の目的についてはあまり明らかにしません。私たちは、(1)文字通り自然言語の指示や原則の簡単なリストに訓練目標をエンコードすること、(2)訓練中にAIの意思決定を明示的にするためにCoT (Chain-of-Thought)を使用すること、(3)有害な要求に関与することを拒否する理由を説明するAIアシスタントを訓練すること、によってこの状況を改善したいと考えています。 1.2 憲法的AIアプローチ
私たちは、拡張された監督の極端な形態である、憲法的AI(CAI)と呼ぶものを実験します。その考え方は、人間の監督が、AIの行動を支配すべき一連の原則と、Few-Shotに使用される少数の例からなる「憲法」からのみ来るというものです。 私たちのトレーニングプロセスには2つの段階があります(図1を参照)。1つ目の教師あり学習のフェーズでは、モデルを「分布に乗せ」、2つ目の強化学習のステージでパフォーマンスを洗練し、大幅に改善します。
(教師あり学習ステージ)批評→改訂→教師あり学習
プロセスの最初の段階では、まず有益なだけのAIアシスタントを使用して、有害性のプロンプトへの応答を生成します。これらの最初の応答は通常かなり有害で毒性があります。次に、憲法の原則に従って応答を批評するようモデルに求め、批評に照らして元の応答を修正します。各ステップで憲法から原則をランダムに引き出しながら、一連のシーケンスで繰り返し応答を修正します。このプロセスが完了したら、最終的な修正された応答で事前学習された言語モデルを教師あり学習で微調整します。このフェーズの主な目的は、モデルの応答の分布を簡単かつ柔軟に変更して、第2の強化学習フェーズでの探索の必要性と訓練の全長を減らすことです。
(強化学習ステージ)AI比較評価→選好モデル→強化学習
このステージはRLHFを模倣していますが、無害性に関する人間の選好をAIのフィードバック(つまり、「RLAIF」を実行)に置き換えています。RLHFが人間の選好を単一の選好モデル(PM)に蒸留するように、このステージでは、一連の原則のLM解釈を人間/AIのハイブリッドPMにバックディスティルします(人間のラベルは有用性に使用し、無害性にはAIのラベルのみを使用するため)。最初に、教師あり学習(SL)で訓練されたAIアシスタントを使用して、有害なプロンプトのデータセットの各プロンプトに対する応答のペアをサンプリングします。次に、各プロンプトとペアを多肢選択型の質問にまとめ、憲法の原則に従ってどちらの応答が良いかを尋ねます。これにより、無害性に関するAI生成の選好データセットが生成され、それを人間のフィードバック有用性データセットと混合します。次にこの比較データで選好モデルを訓練し、任意のサンプルにスコアを割り当てることができるPMを生成します。最後に、このPMに対して強化学習によって最初のステージのSLモデルを微調整し、RLAIFによって訓練されたポリシーを生成します。
1.3 貢献
私たちは、無害性に関する人間のフィードバックラベルを一切使用せずに、有益で無害なモデルを訓練するための憲法的手法を実証します。
言語モデルの能力が向上するにつれて、AIによる危害の特定が大幅に改善されることがわかりました。さらに、CoT (Chain-of-Thought)推論がこの能力を改善し、人間のフィードバックラベルで訓練された選好モデルと競合する評価につながります。 https://scrapbox.io/files/65fffb7473a3690024c68986.png
モデルが生成した批評と改訂を繰り返し適用することで、有害性を段階的に減らすことができることを示します)
https://scrapbox.io/files/65fffbba3c0bbc002454ccb6.png
批評を生成することは、単に改訂を直接生成するよりも無害性を改善します。
https://scrapbox.io/files/65fffc091fb5560025db84b7.png
この手法を使用して、以前の人間のフィードバックベースのモデルの回避性に特に取り組みます。
強化学習の自己教師あり学習の選好ラベルを使用すると、クラウドワーカーによる評価でモデルの動作がさらに改善されます(図2と3を参照)。人間のフィードバックを使用して無害性を評価する場合と同等以上のパフォーマンスを発揮します。
使用されたさまざまなFew-Shotプロンプトと憲法の原則、およびさまざまなプロンプトに対するモデルの応答を示すGithubリポジトリを添付します。 1.4 モデルとデータ
私たちは、以前の研究で説明した方法で事前学習された一連の言語モデルを使用しています。私たちの目標は、純粋に役立つアシスタントから役立つ無害なアシスタントを訓練することであるため、RLHFを使用して初期の役立つモデルを訓練します。このために、同じプロセスを使用しますが、役立つ人間のフィードバック(HF)データのみを使用します。ただし、比較のために、人間のフィードバックを使用して新しい選好モデルと役立つ無害なRLHFポリシーも訓練しました。
以前の研究では、選好モデルの比較のための人間のフィードバックデータを収集しました。具体的には、各データサンプルは、プロンプトとプロンプトに対するモデル生成応答のペアで構成されています。クラウドワーカーは、手元のタスクに応じて、より役立つまたは無害であると思われる応答にラベルを付けます。有用性と無害性のデータは別々に収集され、ワーカーは後者のモデルを「レッドチーム」(つまり、有害なモデル応答を引き出す可能性が高いプロンプトを作成する)するように求められます。
次に、RLHFを介して2種類のモデルを訓練しました。(1)有用性データのみで訓練された有用モデル、および(2)有用性と無害性の両方で訓練された「HH」モデルです。過去の実験では、RLHFがモデルの指示に従う能力を大幅に向上させ、HHモデルが有用モデルよりも有意に無害であることが示されました。 2 HHHのAIによる監督の可能性の評価
この論文の残りの部分で取り上げるアプローチの動機付けのために、この節では、言語モデルが会話で最も有益、正直、無害な応答を正しく特定できるかどうかを評価します。結果は、大規模な言語モデルが有害な行動を特定および評価する能力において、クラウドワーカーのパフォーマンスに近づいている可能性があることを示唆しており、AIフィードバックの使用を動機付けています。
Askell et al.、2021では、人間とAIアシスタントの間のさまざまな会話を書き、各会話の最後にモデルの応答のペアを配置しました。次に、有用性、正直性、無害性に基づいて各ペアをランク付けし、221の二項比較を生成しました。モデルは、より良い応答を予測する二項正確性において90%をはるかに超えることができることがわかりました(付録の図11を参照)。したがって、本論文では、より微妙な無害性のテストに主に焦点を当てて、217のより挑戦的な比較を書きました。より回避的な応答よりも無害で有益なメッセージが好まれる例を含みます。
図4では、このタスクでのさまざまなモデルのパフォーマンスを2つの定式化で示しています。
https://scrapbox.io/files/66065239946a1b0025f42913.png
1つのケースでは、選好モデル評価として定式化し、人間の選好ラベルの数十万件で訓練されたPMを、より良い応答により高いスコアを割り当てる精度で評価します。もう1つのケースでは、このタスクを二項の多肢選択問題として定式化し(フォーマットについては4.1節を参照)、事前学習された言語モデルまたは有益なRLHFポリシーを使用して回答を直接評価します。また、連鎖思考(CoT)推論を使用しており、これによりより大きなモデルのゼロショットパフォーマンスが大幅に向上しています。5つのCoTサンプルをサンプリングし、各サンプルから各回答にモデルが割り当てる確率を平均化することで、さらに小さなブーストが得られることがわかりました。
付録Bでは、Ganguli et al.、2022のデータセットを使用して、言語モデルが有害な行動を特定し、有害の種類を分類できることを示す、いくつかの追加の有害性に焦点を当てた多肢選択評価を提供します。これらの結果を合わせると、モデルの能力が向上し続けるにつれて、AI評価を使用して有害な行動を特定して回避することがますます扱いやすくなるはずだと示唆しています。この節と付録で使用しているすべての評価は、私たちのリポジトリで入手できることに注意してください。